[Deutsch] [English]

ESpell 

ESpell

Kako radi ESpell?

On u riječima traga za određenim "komadićima" koji mogu biti jedno slovo li više njih i pokušava ih zamijeniti drugim "komadićima", ali isprobavajući pritom sve mogućnosti i provjeravajući ih u pravopisu.

Primjeri primjena

    OCR

OCR je kratica za Optical Character Recognition iliti optičko prepoznavanje znakova. Pri tom se uvijek, ovisno o vrsti OCR-softwarea, javlja veći ili manji postotak grešaka. No većina tih grešaka su tipične pogreške koje se stalno ponavljaju. Kada se jednom vidi koje su to najčešće greške kod određenog OCR-programa i vrste teksta, ESpell može višestruko ubrzati rad na ispravljanju takvih tekstova.

    Beskvaki hrvatski

Premda će vam u praksi to vjerojatno rijetko zatrebati, spašavanje "ćelavih" tekstova (onih koji su pisani bez ikakvih hrvatskih dijakritičkih znakova) je zadaća na kojoj će ESpell moći pokazati svu svoju moć. Na tom primjeru je i opisan rad s programom.

Detaljnije o navedenim primjenama i ostali primjeri primjena...

 

Rad s ESpellom        

Najprije treba u odabrati profil koji nam je potreban.

 Valja se i odlučiti kako će se program ponašati ako ne bude mogao sam odlučiti kako da prepravi neku riječ. Ako smo se odlučili za , u takvim će se slučajevima pojavljivati ovakav prozorčić:

Imali smo, naime riječ "spavacica" i program nas želi pitati je li to spavačica koja spava ili spavaćica u kojoj je spavala dok je nije skinula. Mi ćemo:

Ako želimo neku riječ dodati među iznimke, označit ćemo je mišem ili tipkama gore-dolje i kliknuti Dodaj u iznimke!. Riječ će nestati s popisa i nikad se više neće na njemu pojaviti.

VAŽNO: Provjerite kakve su vam postavke u Tools/Options/Spelling and Grammar [Alati/Mogućnosti/Pravopis i gramatika]. Ono što program za provjeru pravopisa ignorira, to ni ESpell neće pravilno obraditi!

  Ovim se pucetom pokreće ESpell.
 Nemojte ništa selektirati nego postavite točku umetanja (kursor) tamo odakle želite početi s ispravljanjem teksta. Program će stati tek na kraju dokumenta, točnije rečeno, na kraju trenutno aktivne "priče" (story). "Priče" su: tijelo dokumenta, fusnote, zaglavlja itd. To znači da, ako želimo ispravljati fusnote, treba ih otvoriti pomoću View / Footnotes [Pogled / Fusnote] i tamo staviti točku umetanja, a ako želimo ispravljati zaglavlja i podnožja treba postupiti isto samo pomoću View / Header and Footer [Pogled / Zaglavlje i podnožje].     Ako želite da stane prije kraja "priče" uključite opciju i odaberite znak za zaustavljanje u    te dodajte odgovarajući znak u tekst na mjesto gdje želite da program stane. Najbolje da to učinite pritiskom na . Za zaustavljanje programa moći ćete iskoristiti i prozorčić za odabir koji je javlja kod nekih riječi. Osim na ta dva načina, program ćete u nuždi moći zaustaviti pritiskom na Ctrl + Pause.

OPREZ! Sve riječi plave boje bit će preskočene!

  Valja znati da je ESpell spor! Nemojte misliti da je loše programiran. Jednostavno, programi pisani u VBA su spori. Ako imate neki zaista dugačak tekst, možda biste ga radije pustili da se ispravi do kraja, a vi otišli u šetnju. "Ali", kažete vi, "to je nemoguće jer me program stalno treba. Moram biti tu jer me svaki čas pita koju riječ da odabere." To je istina, ali i tome ima lijeka. U   odaberite . Takve dubiozne riječi program će obojiti crveno i neće se zaustaviti na njima. Kada program dođe do kraja (ako se prije toga ne sruši slavni Microsoft Word), stavite kursor opet tamo odakle ste počeli i pokrenite . Program će ovoga puta obraditi samo crvene riječi, dakle samo one za koje mu treba vaše mišljenje. POZOR! Ako želite da program stane kad naiđe na dogovoreni znak, pazite da i on bude crven! Stoga je najbolje upotrijebiti .

  radi isto što i  ali djeluje na samo jednu riječ - onu koja je selektirana ili unutar koje ili na početku koje je kursor.

  je prava sitnica. "Resetira" boju teksta, tj. skida s njega podatak o boji. Djeluje na riječ unutar koje ili na početku koje je kursor, ili na selektirani tekst. Boja u kojoj se on tada vidi ovisi o postavkama Windowsa koje se namještaju u "Control Panel / Display / Appearance" i najčešće je crna. Nemojte da bude plava ili crvena jer tada nećete vidjeti koje je riječi ESpell označio jednom od te dvije boje.

  pokreće mali dopunski programčić nazvan "ZConv".
"Z" je prvo slovo moga imena, a "Conv" zato jer konvertira kodne stranice i skriptove tj. zamjenjuje naša slova drugim znakovima eda bi se ispravno vidjeli u raznim kodnim stranicama i skriptovima. No, može se upotrijebiti svagdje gdje je u tekstu potrebno zamijeniti jedan znak ili skupinu znakova drugim znakom ili skupinom znakova. Tako, na primjer, dva profila čija imena počinju s OCR ne služe zamjeni hrvatskih slova nego pomažu kod ispravljanja teksta dobivenog OCR-om.

Ma on zapravo radi isto što i ESpell, ali na slijepo - ne provjerava pravopis. Zato je neusporedivo brži.

Valja, međutim, znati da se ZConv ponaša drukčije nego ESpell. On će zamijeniti sve znakove unutar selektiranog teksta ili, ako ništa nije selektirano, od točke umetanja (kursora) do kraja dokumenta (točnije - do kraja "priče" u kojoj je kursor).

"sa->s" i "s->sa"

Hrvatski pravopis jasno određuje kada se piše "s", a kada "sa", ovisno o tome kako počinje sljedeća riječ. Bitno je njeno prvo slovo, ali ponekad i drugo. Odaberite "sa->s" na ESpellovoj traci s alatima i program će ispraviti sve pogrešno napisane riječi "sa" u "s" počevši od kursora pa do kraja priče. Zatim ponovite isti postupak, samo ovaj put odaberite "s->sa" kako biste neispravne "s" zamijenili sa "sa".

Tipps und Tricks

Nakon što je ESpell učinio svoje

Riječi koje program za pravopis (Spelling) ne prepoznaje, ni ESpell neće moći ispraviti. Nakon obrade ESpellom tekst treba prekontrolirati programom za pravopis. (Najlakše je to, dakako, ako je uključeno automatsko podcrtavanje sumnjivih riječi.) Ako nađete riječi koje ESpell nije uspio ispraviti morat ćete ih ispraviti ručno. Najčešće će to biti vlastita imena. Npr. Snjezanu Celanovic ćete ispraviti u Snježanu Čelanović. No, Word će je i dalje podcrtavati crvenom nazubljenom crtom.  Želite li da te riječi ESpell ubuduće prepoznaje, dodajte ih u Wordov korisnički rječnik (desni klik na riječ / Add [Dodaj]). (PAŽNJA! Nemojte se zabuniti! Dodajte Snježanu Čelanović, a ne Snjezanu Celanovic!)

Profili

OCR

OCR je kratica za Optical Character Recognition (Optičko prepoznavanje znakova). Pri tom se javljaju tipične pogreške. Na primjer: veliko o je obično prepoznato kao nula, "rn" često ispadne "m", miješaju se veliko i, malo l i broj 1. Naša slova katkad ne budu prepoznata, pogotovo ona velika. ESpell traži takve tipične pogreške i pokušava ih ispraviti.

Od teksta do teksta i od OCR-programa do OCR-programa moguće su razlike u tome koje su najčešće pogreške. Profil "OCR" je tako napravljen da nije vezan uz određeni jezik nego gleda koji je jezik u Wordu pridružen određenom tekstu. U tom smislu je profil "OCR" napravljen da bude univerzalan - za sve jezike. Pa ipak postoje razlike i u tom smislu: Nema, na primjer, smisla da program kod ispravljanja njemačkog teksta traga za eventualno neprepoznatim hrvatskim slovima. Možda bi trebalo razviti niz takvih profila - za pojedine jezike i za pojedine OCR-programe. Prepuštam to korisnicima (vidi napredno korištenje). Ja sam ESpell iskušao samo na hrvatskim tekstovima normalne veličine slova i samo s OCR-programom ABBYY Fine Reader Pro 4.0. Tako je nastao profil "OCR (Hrvatski)". Poslije sam dodao profil "OCR" koji bi trebao poslužiti kao polazna osnova za rad s jezicima koji nemaju naših dijakritičkih znakova.

 Da biste dobili dobre rezultate u ovom vrlo korisnom, ali i zahtjevnom području primjene trebali biste znati kako uređivati profile. Nije to tako teško. Treba samo prvo pročitati napredno korištenje. Zatim biste trebali pratiti kakve se greške koje ESpell ne prepozna najčešće javljaju i njih unijeti u profil. Na primjer ako ste primijetili da je vaš OCR program riječi: "Ivica, Ivan, Ivana" prepoznao kao "1vica, 1van, 1vana", to znači da u profil trebate dodati redak
"1","I"
ili jednostavnije
1,I
(i brojku iznad povećati za jedan).

Obratno, ako ste primijetili vaš OCR-program ne griješi ili vrlo rijetko griješi kod nekih slova ili skupina slova koje su navedene u profilu, možda će odgovarajući redak trebati izbrisati.

Treba očekivati razlike ne samo kod raznih OCR-programa, nego i kod različitih fontova, veličina slova, kakvoće otiska i sl. Možete imati mnoštvo specijaliziranih profila za mnoštvo različitih situacija. I premda će jedan univerzalni profil također raditi, ovako ćete dobiti bolje rezultate.

Crtice koje služe za rastavljanje riječi na krajevima redaka OCR-programi shvaćaju kao obične povlake. Tako se gubi razlika između povlake koja stoji u polusloženicama i koja je potrebna, i one koju treba ukloniti. ESPell može prepoznati razliku, ali mu je potrebna mala pomoć. Treba, prije obrade teksta ESpellom, sve crtice, pomoću profila "OCR -ł" u , pretvoriti u "ł", a nakon obrade sve preostale "ł" ponovno pretvoriti u crtice pomoću profila "OCR ł-". Zašto baš ł ? Budete li radili s poljskim jezikom trebat ćete izabrati neki drugi zgodan znak. Bitno je da riječ koja ga sadrži Word shvaća kao jednu riječ.

Valja svakako naglasiti da to što je jedan takav, OCR-om dobiveni tekst, obrađen ESpellom ne znači da su sve greške u njemu uklonjene. On će vam samo značajno ubrzati posao uklonivši većinu tipičnih grešaka! No vi ga svejedno morate pročitati, obraćajući posebnu pažnju na one riječi koje je program za provjeru pravopisa podcrtao!

Beskvaki hrvatski (loše transkribirani hrvatski)

Davno su prošla vremena kada računala nisu poznavala naša slova. Pa ipak se i danas možemo susresti s tekstovima koji su pisani samo sa c z s i dj. ESpell ih ispravlja sa stopostotnom sigurnošću.

Postoje tri varijante:

Srpski

Ako prevodite neki tekst sa srpskoga na hrvatski, ESpell vam može ubrzati jedan dio posla - pomoći će vam prepraviti ekavicu u ijekavicu.

Pokušat će i zamijeniti "ov" sa "ir" da bi tako prepravio npr. "emitovati" u "emitirati" i sl. 

Dodano je i prepoznavanje spojenog pisanja futura kao u "popiću", "zapiću", "potrošiću" i njegova prepravljanja u "popit ću", "zapit ću", "potrošit ću".

Kod ovog profila veoma je bitno dodavati izuzetke.

Umgeschriebenes Deutsch (transkribirani njemački)

Nijemci su imali slične probleme sa svojim znakovima kao i mi. Zato se i kod njih još tu i tamo može naići na tekstove koji su pisani bez njihovih karakterističnih slova: ä, ö, ü i ß. No oni su tome doskočili daleko bolje nego mi. Pišu ae, oe, ue i ss, a postupak se naziva das Umschreiben (die Umschreibung). Tu se ništa ne gubi. Poslije se točno zna koja je koja riječ, a ne tek iz konteksta kao što je slučaj kod nas kada se piše bez kvačica. Ako vam se kod ovog profila ikada pojavi prozorčić za odabir između više ponuđenih riječi, javite mi :-)

Kod nas je odavno trebalo uvesti nešto slično, na primjer da se, kad god naša slova nisu dostupna, piše: cc, ch, dd, ss i zz ili nekako slično. Da se tako pisalo, ESpell bi za ispravljanje takvih tekstova bio gotovo nepotreban. Bio bi dovoljan programčić tipa ZConv. (No samo pod uvjetom da su u tekstu same hrvatske riječi. Što ako zaluta koja strana? Ne želite valjda München pretvoriti u Münćen?)

Taj način pisanja neki i koriste na Internetu, jedino mislim da se upotrebljava "dj" umjesto "dd" što već unosi nešto veći stupanj neodređenosti.

Imam prijatelja koji živi i radi u SAD i on transkribira ovako: c^ c' dj s^ z^. Veli da naši ljudi u Americi dosta koriste taj način.

Profile za te situacije možete napisati sami. Kako se to radi, pročitajte u sljedećem poglavlju.

Ali, zaboga, ljudi, nemojte stalno izmišljati nove standarde! Evo, neki dan otvorim http:\\knjigajeknjiga.com i imam što vidjeti. Osim toga, od nekoga tko se bavi knjigama očekivalo bi se malo više pismenosti. Evo primjera: "Napis*te svoje mis*ljenje o nekoj knjizi s ovoga kataloga, objaviti c'e mo ga na nas*im stranicama."

Zapravo uopće nemojte transkribirati. To je stvar prošlosti. Ovaj program je tu da obračuna s tom tmurnom prošlošću!

 

Napredno korištenje - kreiranje i uređivanje profila

ESpell profili

Za sada, unutar programa ESpell, nije riješeno kreiranje i mijenjanje profila. Moguće je jedino dodavanje među izuzetke i to samo cijelih riječi. Za sve ostalo trebate ih otvoriti u Notepadu ili sl. Pogledajmo, na primjer, profil "Beskvaki hrvatski (dj)".

Datoteka "Beskvaki hrvatski (dj).ini":

Redak broj

Sadržaj retka

Objašnjenje

1

Hrvatski

Kada je ovdje naveden jezik Word pretpostavlja da su sve riječi na koje naiđe radeći s ovim profilom na hrvatskom jeziku. Ovdje može pisati i “auto”. Program će tada za svaku riječ koju ispravlja gledati koji jezik joj je u Wordu pridružen.

2

"cCsSzZdD"

Tragajući za ovim znakovima Word će zastati na svim riječima koje sadrže jedan od znakova odnosno skupova znakova ("komadića") koji su kao prve stavke (prije zareza) navedeni u recima od 5 do 15. Ni ovdje ni u sljedećim recima navodnici nisu obavezni!

3

2

Određuje duljinu najkraće riječi koju ćemo uzeti u obzir.

4

11

11 jer slijedi 11 redaka s "komadićima" za kojima tragamo i njihovim mogućim zamjenama

5

"c","č"

 
6

"c","ć"

Treba probati i "ć".

7

"C","Č"

Potrebno je uzeti u obzir i velika slova. 

8

"C","Ć"

 
9

"s","š"

 
10 "S","Š"
 
11 "z","ž"
 
12 "Z","Ž"
 
13 "dj","đ"
Ovaj profil gleda samo "dj". "Beskvaki hrvatski (d)" gleda "d", a "Beskvaki hrvatski (dj&d)" gleda jedno i drugo. I isprobava, dakako, sve zamislive kombinacije. 
14 "Dj","Đ"
 
15 "DJ","Đ"  

Datoteka "Beskvaki hrvatski (dj)*.exc"

Redak broj

Sadržaj retka

Objašnjenje

1 1 Postoje dvije vrste iznimaka. Cijele riječi i dijelovi riječi. Najprije dolaze cijele. No moramo Wordu reći koliko ih je.
2 nasla Samo jedna, za sada. Stavio sam je jer mi ju je Wordov pravopis neprestano nudio kao opciju umjesto da je bespogovorno promijeni u "našla". Nisam se uspio dosjetiti što bi ta riječ imala značiti. Ako se netko dosjeti neka mi javi.
3 0 Slijede dijelovi riječi. Njih ovdje slijedi ... nijedan. Mnogo bolji primjer za ove izuzetke je datoteka "Srpski.exc". Svakako je proučite. (Dijelovi riječi koji su tamo navedeni odražavaju moj osobni izbor. Ako vi želite upotrebljavati navedene oblike, što je trenutnim pravopisom dopušteno, izbrišite ih.)

Ako sami kreirate profil, datoteke *.ini i *.exc spremite u direktorij ESpellProfiles. Pritom nemojte koristiti imena tipa *.#.#.ini (npr. OCR.1.2.ini) jer su takva imena rezervirana za buduće verzije programa. Obje datoteke moraju postojati pa makar *.exc imala samo dva retka u kojima je samo po jedna nula.

Nastavak ".ini" je odabran zato da bi se profili automatski otvarali u Notepadu, ali po svojoj strukturi to nisu standardne Windows .ini datoteke. To vrijedi i za sve ostale ESpellove konfiguracijske datoteke s nastavkom .ini.

 

ZConv profili

Evo kako su građeni ZConv profili: Prvi redak je #TRUE# ako želimo da se razlikuju velika i mala slova, ili #FALSE# ako ne želimo. Svi dalji reci kažu što čime zamijeniti. Umjesto slova mogu biti i character codes u Unicode kodnoj stranici. Program će to sam prepoznati - vidjet će da je u pitanju broj. No na taj se način ne može zadati skup slova nego samo jedno.

 Ako sami kreirate profil, datoteku "*.ini" spremite u direktorij ZConvProfiles. Pritom nemojte koristiti imena tipa *.#.#.ini (npr. OCR.1.2.ini) jer su takva imena rezervirana za buduće verzije programa.

Freeware?

ESpell možete iskušavati koliko želite. On nema u sebi nikakvu zaštitu. No ako je našao mjesto u vašoj zbirci programa koje stalno koristite, ili vam se naprosto svidio pa želite na neki način pomoći i tako omogućiti usavršavanje programa, možete to učiniti. To se posebice odnosi na komercijalne korisnike. Koliko? Mislim da bi 50kn × broj računala na koja je ESpell instaliran bilo u redu. No isto tako možete poslati više ili manje. Za sada je jedino moguće poslati gotovinu na adresu:

Zoran Vučić
Ljubijska 45
10040 Zagreb
Hrvatska

Ako dijelove koda želite ugraditi u svoje programe, javite mi se radi dogovora.

 

FAQ - pitanja i odgovori

Q: (verzija 1.1) Radi mi ZConv, ali ne i ESpell. Javlja nekakav Error.
A: Profil koji je odabran u postavkama () namijenjen je za jezik za koji na vašem računalu nije instalirana provjera pravopisa. Odaberite neki drugi profil.  ---  U novijim verzijama to je riješeno tako da vas ESpell sam upozorava da je odabran krivi profil.

Q: Na riječima koje su pisane samim velikim slovima ESpell mi nudi previše riječi i među njima ima onih koje nikako ne mogu biti pravopisno točne.
A: Word po instalaciji ima uključenu opciju Tools/Options/Spelling & Grammar/Ignore words in UPPERCASE [Alati/Mogućnosti/Pravopis i gramatika/Zanemari riječi pisane velikim slovima]. To treba isključiti. I ostale postavke na toj kartici bitno utječu na rad ESpella.

Q: (verzija 1.1) Kada koristim ESpell i pritom imam više otvorenih dokumenata, zna se dogoditi da se, prilikom pojavljivanja prozorčića za odabir riječi, Word prebaci na neki drugi dokument.
A: U novijim verzijama taj je problem riješen.

 Napišite kakva su vaša iskustva s ESpellom.


 

[Deutsch]    [English]          [ESpell]             espell@mim-sraga.hr